大型神经语言模型(NLMS)的域适应性在预审进阶段与大量非结构化数据结合在一起。但是,在这项研究中,我们表明,经过验证的NLMS从紧凑的数据子集中更有效,更快地学习内域信息,该数据集中在域中的关键信息上。我们使用抽象摘要和提取关键字的组合从非结构化数据构建这些紧凑的子集。特别是,我们依靠Bart生成抽象性摘要,而Keybert从这些摘要中提取关键字(或直接的原始非结构化文本)。我们使用六个不同的设置评估我们的方法:三个数据集与两个不同的NLMS结合使用。我们的结果表明,使用我们的方法在NLM上训练的特定任务分类器,使用我们的方法优于基于传统预处理的方法,即在整个数据上随机掩盖,以及无需审计的方法。此外,我们表明我们的策略将预处理的时间降低了五倍,而这是香草预处理的五倍。我们所有实验的代码均在https://github.com/shahriargolchin/compact-pretraining上公开获得。
translated by 谷歌翻译